4. Corrélation, causalité, prévisions.

On considère ci-dessous des statistiques sur le transport routier en France :

année

TvéR

NA

85

650.9

191.1

90

774.3

162.6

95

829.1

132.9

96

841.1

125.4

97

863.3

125.2

avec les conventions suivantes :

·      TVéR (Trafic Véhicules sur Route) : nombre de véhicules x km sur route (en centaines de millions)

·      NA : nombre d’accidents (en milliers)

1) L’augmentation du trafic routier devrait évidemment provoquer un augmentation du nombre d’accidents. Les valeurs observées montrent que ce n’est visiblement pas le cas.

2) Le coefficient de corrélation entre le nombre d’accidents et le trafic est égal à

r = –0.979.

La relation qu’il met en évidence est que plus le trafic augmente, moins il y a d’accidents. Il est clair que ce n’est pas la relation de cause à effet que nous avons supposée dans la première question. Une interprétation rapide du coefficient de corrélation peut donc induire en erreur.

3) On effectue la régression linéaire du trafic véhicules sur route (TVéR) par l’année numérotée de 85 à 97. On commence par effectuer une réprésentation graphique :

Les points sont relativement bien alignés et rien ne contredit l’hypothèse d’une liaison linéaire. On obtient l’équation de la droite par un logiciel :

TvéR » 16.68 année – 752.89

L’année 2000 est codée par 100. On obtient :

Pour l’an 2000 : TvéR » 915.2

Le coefficient de corrélation est très proche de 1.

r = 0.9838026

Contrairement à une idée reçue, cela ne confirme pas que la liaison est linéaire. Pour justifier la régression, il est préférable d’examiner les erreurs commises en chaque point que l’on appelle résidus. Cette approche, développée dans le chapitre 7, ne présente guère d’intérêt ici compte tenu du faible effectif (n = 5).

On sait que la moyenne des résidus est toujours nulle. Leur variance est donnée par la formule :

s2 = (1 – r2) sy2

dans laquelle r est le coefficient de corrélation et sy2 la variance de la variable y = TVéR. On obtient :

s2 = 186.966

4) L’augmentation moyenne annuelle absolue am du trafic véhicules sur route au cours des douze années observées est donnée par une simple division :

am = (863.3 – 650.9) / 12

On trouve :

am = 17.7

 

Le tableau ci-dessous contient les approximations pour les années observées et les ereurs commises :

année

TvéR observé

TvéR approximatif

Écart

85

650.9

650.9

0

90

774.3

739.4

34.9

95

829.1

827.9

1.2

96

841.1

845.6

-4.5

97

863.3

863.3

0

2000

 

916.4

 

La moyenne des écarts ci-dessus n’est pas nulle, et la moyenne de leurs carrés est égale à 247.94, est largement supérieure à la valeur s2 =186.966 précédente. On pouvait s’attendre à ce dernier résultat : le calcul ci-dessus consiste à effectuer une approximation des trafic TvéR par la droite passant par le premier et le dernier point du graphique. Il s’agit donc d’une approximation linéaire que ne peut donner qu’une somme (ou une moyenne) des carrés des écarts supérieure à celle que l’on obtient par la régression puisque cette dernière est minimale. 

5) On effectue maintenant la régression du nombre d’accidents NA par l’année. La reptrésentation graphique ne contredit pas l’hypothèse d’une liaison linéaire. On observe toutefois un tassement entre 1996 et 1997 :

On obtient l’équation de la droite par un logiciel :

NA » -5.72 année + 677.1633

L’année 2000 est codée par 100. On obtient :

Pour l’an 2000 : NA » 105.1079

 

6) On donne ci-dessous la représentation graphique du nombre d’accidents en fonction du trafic.

On observe une évolution inverse : le nombre d’accidents décroît tandis que le trafic augmente (cf. question 1). L’équation de la droite de régression est la suivante :

NA » -0.3312152 TvéR + 409.6763

On ne conaît pas le trafic en 2000, seulement la prévision établie dans la question précédente (916.4). On peut en déduire une estimation du nombre d’accidents :

Pour l’an 2000 : NA » 106.1

Les deux valeurs prévues pour l’an 2000 sont proches l’une de l’autre. Cela s’explique en particulier par la taille des coefficients de corrélation très proches de 1 en valeur absolue, et cette proximité ne donne aucune garantie supplémentaire sur la vraisemblance de la prévision.